图 二 情报 三 作 


第 64 卷 第 20 期 2020 年 10 月 


hinay iw 全 人 作 甘 9 二 || 
ChinaXiv A T FARHTI 


MEITIPLLPPDSSELESEUSSE 


| 余 厚 强 AŽ BAA EAJ 
南京 理工 大 学 经 济 管理 学 院 ”南京 210094 


jg X [目的 /意义 ] 对 人 工 智 能 领域 科研 团队 进行 识别 ,并 基于 多 个 维度 的 指标 提取 领军 科研 团队 , 旨 在 丰富 科研 团队 


识别 的 流程 与 方法 ,为 从 科研 团队 视角 分 析 人 工 智能 领域 脉络 前沿 和 主题 提供 依据 。 [ 方法 /过 程 ] A Web of 
Science 为 数据 来 源 , 采 集 2009 -2018 年 间 人 工 智能 学 科 领 域 所 有 科技 论文 的 数据 ,通过 算法 设计 与 人 工 核 查 进 
行 数据 清洗 ;基于 分 数 计 数 法 构建 全 局 合 著 网 络 ,并 利用 社区 探测 算法 动态 调 参 、 识 别 科研 团队 ;进而 基于 多 维度 
的 指标 提取 出 领军 团队 ,并 加 以 比较 分 析 。[ 结果 /结论 ] 从 实践 出 发 构造 人 工 智 能 科技 论文 数据 清洗 的 规则 ; 构 
建 基于 合 著 关系 识别 人 工 智 能 科研 团队 的 流程 体系 ;提出 通过 消除 边缘 结 点 进行 合 著 网 络 筛选 ,进而 利用 已 知 团 
队 作 为 参考 进行 参数 调整 的 思路 ;较为 系统 和 准确 地 识别 出 全 球 人 工 智能 科研 团队 ,并 基于 发 文 量 、 被 引 量 .h 指 
数 、 中 介 中 心 度 、 接 近 中 心 度 和 加 权 点 度 中 心 度 6 个 维度 的 指标 提取 出 领军 科研 团队 ,同时 ,给 出 结合 论文 数据 和 
实证 调研 对 每 个 领军 团队 的 示例 性 分 析 。 


m: 人 工 智能 合 著 网 络 科研 团队 ”领军 团队 ”数据 分 析 
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团队 识别 的 相关 研究 主要 从 两 个 方面 展开 : 
(1) 识 别 不 同 领 域 的 科研 团队 。 由 于 科研 团队 在 
现代 科学 研究 中 的 重要 性 ,不 同学 科 领 域 均 关 注 科研 


要 手段 。 科 研 合作 的 一 种 主要 表现 形式 是 科研 团队 
的 形成 , 它 是 科学 共同 体 的 重要 构成 。 科 研 团队 不 仅 
是 界 学 研究 的 中 坚 力量 ,能 够 体现 出 一 个 学 科 领 域 人 
为 接 入 的 集聚 程度 ,而 且 引 领 着 科学 研究 发 展 的 态势 
与 曾 沿 。 因 此 ,科研 发 展 特 点 与 规律 的 研究 中 需要 关 
注 科研 团队 ,科技 政策 制定 与 调整 中 更 需要 密切 关注 
科研 团队 及 其 所 做 的 研究 。 此 外 ,在 科技 评价 中 ,尤其 
是 基金 支持 .高校 人 才 引进 等 方面 ,也 往往 需要 结合 科 
研 团队 进行 考核 与 评价 。 

科研 团队 是 指 * 以 科学 技术 研究 与 开发 为 内 容 , 由 
优势 互补 .愿意 为 共同 的 科研 目的 .科研 目标 和 工作 方 
法 而 相互 协作 配合 承担 责任 的 科研 人 员 组 成 的 群 
体 "" 。 本 文 所 研究 的 对 象 是 建立 在 科研 协作 关系 上 
的 虚拟 科研 团队 。 传 统 识别 科研 团队 的 方法 主要 是 专 
家 访谈 问卷 调研 等 , 随 着 社会 网 络 分 析 方法 的 发 展 ， 
利用 合 著 网 络 关系 识别 科研 团队 得 到 深入 研究 。 科 研 
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瘤 学 中 等 学 科 , 均 研究 了 科研 团队 识别 的 问题 。 

(2) 改 进 科研 团队 识别 的 算法 。 最 基本 的 识别 算 
法 是 社会 网 络 分 析 中 的 派系 识别 方法 ,在 后 来 的 发 展 
过 程 中 ,有 运用 向 量 空间 模型 .引入 关联 规则 挖掘 中 
FP - Growth 算法 .基于 原始 数据 和 矩阵 因子 分 析 扩 、 合 
著 网 络 加 权 "” 等 方法 开展 科研 团队 识别 的 实证 研究 。 

本 研究 主要 有 两 个 出 发 点 :四 人 工 智 能 领域 的 重 
要 性 日 益 增 强 , 但 是 还 没有 专门 针对 该 领域 科研 团队 
的 系统 性 研究 。 人 工 智 能 技术 的 飞快 发 展 ,在 全 球 范 
围 内 引起 广泛 重视 ,不 仅 集聚 了 许多 学 科 领 域 学 者 参 
与 到 研究 中 ,而 且 随 着 各 个 国家 和 地 区 对 于 人 工 智能 
产业 的 大 力 布局 ,人 工 智能 的 研究 也 不 断 深化 与 发 展 。 
因此 ,从 科研 团队 角度 对 人 工 智能 领域 展开 分 析 具 有 
重要 决策 支持 意义 。@ 既 有 的 科研 团队 识别 研究 主要 
是 基于 较 小 数据 规模 的 实证 研究 , 鲜 有 基于 大 规模 数 
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据 的 实证 分 析 。 已 有 的 研究 主要 选取 数量 有 限 的 期 刊 
作为 数据 来 源 ,识别 出 的 科研 团队 数量 在 几 个 到 几 十 
个 不 等 。 并 且 , 采 用 的 方法 主要 是 先 确定 团队 领导 者 ， 
再 扩展 得 到 团队 成 员 , 这 样 虽然 避免 了 团队 规模 无 法 
确定 的 难题 ,但 是 少数 极 大 团队 的 存在 会 导致 按 中 心 
度 排名 ,许多 其 他 团队 无 法 得 到 显示 。 

本 文 旨 在 解决 以 下 主要 研究 问题 : 

(1) 如 何 基于 大 规模 科技 文献 数据 识别 出 人 工 知 
能 领域 科研 团队 ? 要 回答 这 个 问题 ,不 仅 需 要 解决 机 
构 数据 \ 作 者 数据 的 规模 化 清洗 问题 ,而 且 需 要 通过 试 
验 确定 合适 的 科研 团队 分 割 粒度 。 

(2) 基 于 识别 出 的 大 量 科研 团队 ,从 不 同 角度 提 
取出 的 人 工 智能 领域 领军 团队 有 哪些 ?具体 来 说 ,将 
选取 不 同 的 指标 ,从 不 同 角度 去 提取 人 工 智 能 领域 的 
ARP LA 
入 -领军 科研 团队 是 指 在 科学 研究 上 成 绩 突出 的 科研 
团 克 ,简称 为 领军 团队 。 科 研 团 队 的 评估 是 复杂 的 ,不 
© 


宜 对 多 样 化 的 科研 团队 使 用 一 种 指标 或 通过 加 权 降 维 
去 排名 展示 。 因 此 ,本 文 认为 不 同 维度 表现 突出 的 科 
研 团队 都 是 领军 团队 ,这 既 可 以 是 单一 维度 上 表现 突 
出 ,也 可 以 是 若干 维度 上 同时 表现 突出 。 在 系统 识别 
出 科研 团队 后 ,从 多 维 视 角 提 取出 领军 科研 团队 ,对 于 
分 析 全 球 人 工 智 能 的 研究 力量 及 其 分 布 . 跟 踪 人 研究 发 
展 状态 与 前 沿 .制定 研发 规划 等 ,具有 重要 的 决策 支持 
2 研究 设计 
2.1 整体 流程 设计 

从 大 规模 数据 集中 识别 出 科研 团队 的 过 程 ,实际 
上 就 是 数据 采集 、 处 理 \ 挖 据 与 利用 的 数据 分 析 过 程 。 
因此 ,本 研究 从 数据 驱动 出 发 ,将 涉及 到 的 主要 内 容 衣 
入 到 操作 环节 中 ,设计 科研 团队 识别 的 整体 流程 ,如 
1 所 示 : 


Web of Science 核心 集 ， 时 间 范 围 : 2009-2018 


e 数据 采集 科学 文献 
co 检索 式 : WC= "COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE" 
© 合并 同一 机 构 机 构 名 称 统一 
下 属 机 构 为 全 称 
N 机 构 数 据 提取 E sog 人 工 核查 
d 国内 机 构 统 一 。 ”统一 机 构 书 写 
> 使 用 拼音 名 称 顺序 
清洗 后 的 机 构 
2 数据 清洗 数据 
>< 不 同 机 爸 硬 各 作者 存在 相同 
合 视 为 同一 MA 
© 作者 数据 提取 s ne 4a 
CC i 同 二 机 构 重 名 作者 视 为 同一 
H mm 作者 
删除 边缘 结 点 参数 调整 
ide È 整合 合 著 网 络 探测 研究 团 B 
a 
发 文 量 被 引 量 h 指数 结 点 指标 
中 介 中 心 度 。 接近 中 心 度 。 加权 点 度 网 络 指标 
中 心 度 
1 基于 数据 分 析 的 人 工 智能 科研 团队 识别 流程 
2.2. 数据 采集 人 工 智能 是 个 复杂 的 新 兴 领 域 , 为 了 检索 获得 该 


本 研究 采用 Web of Science ( WoS ) 的 数据 进行 分 


主题 的 所 有 相关 文献 ,采用 关键 词 检 索 将 遇 到 检 全 率 


析 , WoS 是 国内 外 进行 科学 计量 分 析 最 权威 的 数据 库 
之 一 。 由 于 索引 的 期 刊 经 过 专家 六 选 ,通常 被 认为 是 
领域 核心 期 刊 ,具有 较 高 的 质量 。 并 且 , 大 多 数 WoS 
索引 的 期 刊 具有 较 好 的 国际 导向 ,便于 分 析 和 比较 全 
球 范围 的 科技 文献 发 表情 况 。 因 此 ,采用 Wos 数据 具 
备 较 好 的 可 和 做 性 和 可 信和 度 。 


不 足 的 问题 ,因为 人 工 智 能 涉及 非常 多 的 子 主题 。 但 
是 一 旦 选用 了 过 多 的 关键 词 ,由 于 不 少 关键 词 有 此 义 
或 范围 大 广 , 又 会 出 现 检 准 率 的 问题 。 而 Wos 数据 库 
的 学 科 分 类 中 在 计算 机 大 类 下 设 有 人 工 智能 子 类 , 涵 
盖 了 所 有 与 人 工 智能 密切 相关 的 期 刊 , 因 此 ,我 们 将 该 
子 类 的 所 有 文献 下 载 下 来 。 虽 然 WoS 数据 库 的 学 科 
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分 类 是 基于 期 刊 的 ,存在 局 限 性 ,但 该 学 科 分 类 采用 专 
家 同行 评议 实现 ,具备 较 好 的 可 信和 度 。 经 过 比较 ,利用 
该 学 科 分 类 进行 检索 的 效果 最 好 。 因 此 ,采用 “WC = 
* COMPUTER SCIENCE, ARTIFICIAL INTELLI- 
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GENCE’ ”检索 式 进 行 检索 ,检索 时 间 范 围 为 2009 - 
2018 ,检索 时 间 是 2019 4E 1 月 16 日 , 共 采 集 到 421 148 
篇 人 工 智 能 领域 的 科技 论文 。 这 10 年 间 , 人 工 智能 领 


域 科技 论文 数量 随时 间 分 布 如 图 2 所 : 


各 年 份 发 文 量 
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iSÉ 数据 清洗 与 规则 构建 
2A 机 构 数据 的 清洗 
CN 科研 团队 识别 的 前 提 是 对 作者 数据 进行 消 靶 ,而 
- 加 消 靶 需 要 与 机 构 数 据 结合 ,因此 ,我 们 首先 要 对 机 
构 况 所 进行 清洗 再 进行 作者 数据 清洗 。 在 已 有 研究 
与 区 睦 基 础 上 ,制定 机 构 数据 清洗 的 流程 与 规则 如 下 ; 

(5(1) 依 据 机 构 所 属国 家 名 进行 区 分 。 提 取 论 文 机 
构 条 国家 名 称 , 若 机 构 名 称 相 同 但 国家 名 称 不 同 , 则 视 
SELLE 

二 (2) 采 用 迭代 式 积累 方法 设计 清洗 规则 并 进行 消 
JU ,具体 为 :第 一 ,机 构 名 称 前 后 顺序 不 同 ,实际 上 
是 同一 家 机 构 , 例 如" Washington Univ” 和 “Univ Wash- 
ington” 是 同一 家 机 构 ; 第 二 ,同一 机 构 下 属 的 不 同 实验 
室 或 机 构 , 合 并 到 同一 机 构 , 例 如 “NICTA Canberra 
Lab” 和 “NICTA Queensland Lab” 同 属于 机 构 “NICTA”; 
第 三 ,国内 大 学 英文 名 称 和 拼音 名 称 等 不 同类 型 的 名 
称 ,统一 使 用 该 大 学 的 拼音 名 称 , 例如 “Beijing Univ 
Aeronaut & Astronaut” 统 一 称 为 “Beihang Univ”; 第 四 ， 
同一 机 构 既 有 缩 略 名 ,也 有 全 名 , 则 将 所 有 类 型 的 缩 略 
名 统一 为 该 机 构 的 全 称 ,例如 “EPFL，Switzerland”、 
“EPFL IC" , 清洗 后 名 称 为 “Ecole Polytech Fed Lau- 
sanne, Switzerland" , 

(3) 人 工 核查 。 利 用 分 数 计数 法 计算 出 各 个 机 构 
的 发 文 量 , 并 依据 发 文 量 进行 降序 排列 ,共有 机 构 
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能 领域 科技 论文 的 时 间 分 布 示意 


17 511 个 ,人 工 对 发 文 量 前 1% 的 机 构 进 行 核查 ,合并 
基于 前 述 规则 未 能 发 现 的 同一 机 构 不 同 表述 的 情形 ， 
并 以 发 文 量 较 高 的 机 构 名 称 为 准 。 
2.3.2. 作者 数据 的 清洗 

作者 姓名 卜 义 (Author Name Ambiguity ) 问题 在 科 
学 计量 分 析 中 广泛 存在 ,一般 地 ,这 一 问题 可 以 细 分 为 
“异形 同 义 ”" 和 “同形 异 义 ”两 类 。 前 者 指 同一 个 作者 
拥有 多 种 不 同形 式 的 姓名 写法 ,如 全 称 写 法 和 缩 略 写 
法 ;后 者 指 普 遍 存 在 的 重 名 现象 ,这 一 问题 在 亚洲 学 者 
中 尤其 严重 。 为 保障 数据 分 析 的 质量 ,在 机 构 清 洗 的 
基础 上 ,制定 以 下 数据 清洗 流程 和 规则 来 实现 作者 人 
名 消 歧 … ,具体 如 下 : 
(1) 数 据 格 式 转换 。 将 WoS 格式 的 原始 数据 转换 
为 可 供 后 续 处 理 的 格式 。 


(2) 抽 取 待 消 上 到 作者 机 构 与 合 著 者 信息 。 这 里 使 
Fiji LZ 经 清洗 好 的 机 构 信 息 G^ o 
(3) AI BL fi IURI EE fi B SCIES TREE o 


一 ,机 构 相 同 的 重 名 作者 视 为 同一 作者 ;第 二 ,不 同 
机 构 之 间 的 重 名 作者 若 存在 相同 合 著者 , 则 判定 为 同 
一 作者 实体 ;第 三 ,不 满足 上 述 两 个 条 件 的 重 名 作者 判 
定 为 不 同 作者 ,用 “下 划 线 + 数字 ”的 方式 进行 区 分 。 

未 消 卜 之 前 有 53 万 名 作者 ,由 于 重 名 作者 的 存 
在 , 消 玻 之 后 得 到 65 万 名 作者 ,最 终结 果 存 储 在 结构 
化 表单 中 。 
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2.4 科研 团队 识别 
2.4.1 整体 合 著 网 络 的 构建 


个 参数 对 应 算法 的 迭代 条 件 限 制 。 以 已 知人 工 智 能 科 
研 团队 作为 参照 进行 调 参 ,选取 了 西安 电子 科技 大 学 


在 进行 作者 姓名 消 歧 之 后 ,我 们 构建 了 数据 集中 
所 有 合 著 文章 的 整体 合 著 网 络 , 共 涉 及 656 668 个 节点 
(作者 ) 和 2 042 924 条 边 , 边 的 权重 代表 合作 强度 ,由 
二 者 的 总 合作 次 数 计算 得 到 。 相 关 研 究 表明 ,分 数 计 
数 法 比 一 般 使 用 的 全 计数 法 更 能 发 现 网 络 中 的 入 
群 中 ,也 与 实际 科研 产 出 更 相关 。 因 此 ,本 研究 使 
用 分 数 计数 法 来 计算 合作 次 数 , 即 若 一 篇 文章 有 n 个 
作者 , 则 任意 两 个 作者 之 间 的 合作 次 数 为 1/n。 由 于 
构建 出 的 合 著 网 络 规模 巨大 ,因此 无 法 进行 可 视 化 展 
示 , 后 续 所 有 操作 都 是 利用 程序 完成 。 

针对 初始 网 络 ,我们 采用 Pajek 中 Louvain 方法 。 
选择 “ Multi-Level Coarsening + Multi-Level Refine- 
met" ,其 他 参数 为 默认 值 , 共 探测 到 94 347 个 社区 。 
这 坚 社区 紧密 相 联 ,又 与 其 他 社区 相 分 离 , 因 此 视 作 以 
关系 形成 的 科研 团队 。 对 这 些 科研 团队 进行 描述 
性 能 计 分 析 , 发 现 最 大 的 团队 包含 1 553 位 作者 ,规模 
前 346 的 团队 中 , 仅 有 一 个 在 1 000 人 以 下 (996 A) o 
送 樟 的 结果 无 法 满足 我 们 的 细 粒 度 分 析 需 求 ,并 且 实 
卫 的 科研 团队 规模 与 我 们 的 识别 结果 有 所 出 人 ,这 可 
能 是 因为 科研 团队 当中 存在 大 量 单 次 合 著 ` 重 要 性 较 
低 的 边缘 结 点 ,它们 被 误 认 为 是 团队 成 员 。 因 此 ,我 们 
要 对 原始 合 著 网 络 进行 提取 。 


焦 李 成 科研 团队 ,调研 了 其 科研 团队 成 员 构成 。 通 过 
JA, 当 参 数 设 置 为 Resolution =290, Max Level 213, 
Max Iteration = 13 时 ,达到 了 较为 适宜 观察 团队 内 部 具 
体 情 况 的 粒度 ,得 到 的 焦 李 成 科研 团队 与 实际 调研 所 
得 到 的 科研 团队 基本 相同 ,此 时 得 到 的 科研 团队 规模 
均 在 100 人 以 内 。 如 果 团 队 规模 过 大 ,可 能 内 部 联接 
会 较为 松散 。 如 果 团 队 规模 过 小 ,可 能 会 遗漏 掉 某 些 
重要 联接 。 需 要 说 明 的 是 ,在 团队 规模 粒度 选择 上 并 
没有 严格 的 标准 ,只 是 所 揭示 的 科研 团队 紧密 程度 会 
有 所 不 同 。 

在 进行 参数 调整 的 过 程 中 ,我 们 也 对 团队 来 源 的 
合理 性 进行 了 验证 ,以 确保 识别 出 的 团队 是 来 自 上 一 
个 更 大 的 团队 , 见 图 3。 
2.5 领军 团队 的 提取 

人 工 智 能 领域 有 很 多 科研 团队 ,但 在 实际 研究 和 
工作 中 ,主要 关注 处 在 领军 位 置 的 科研 团队 。 因 此 ,在 
识别 科研 团队 的 基础 上 ,需要 进一步 提取 出 领军 团队 。 
我 们 采用 6 种 指标 从 不 同 角 度 对 科研 团队 进行 测度 ， 
分 别 是 发 文 量 ( Number of Publications ) .被 引 量 (Num- 
ber of Citations) , h 指数 (h index) 、 加 权 点 度 中 心 度 
(Weighted Degree Centrality) .中 介 中 心 度 ( Betweenness 
Centrality ) 和 接近 中 心 度 ( Closeness Centrality) 。 其 中 ， 


关 在 本 研究 中 ,我 们 选择 删 掉 原 合 著 网 络 中 发 文 量 
为 尼 并 且 被 引 量 低 于 100 的 作者 结 点 ,因为 这 些 作者 
在 天 工 智能 领域 研究 的 影响 力 非常 弱 ,甚至 并 不 是 真 
正 帮 于 人 工 智 能 领域 的 学 者 ,例如 ,是 参与 部 分 非 核心 
工作 的 研究 生 或 技术 人 员 ,在 科研 团队 中 处 于 极其 边 
缘 的 位 置 ,因而 构成 科研 团队 识别 的 干扰 因素 ,需要 将 
其 噜 除 。 提 取 后 ,得 到 节点 数 为 186 997 .连接 数 为 
543 351 的 新 合 著 网 络 , 与 原始 合 著 网 络 相 比 ,节点 数 
减少 了 469 671 ,连接 数 减少 了 1 499 573 ,整体 合 著 网 
络 在 保持 原 有 重要 节点 的 基础 上 大 幅度 缩小 。 
2.4.2 识别 粒度 的 选择 

为 了 识别 出 规模 合理 .可 供 分 析 的 科研 团队 ,需要 
不 断 地 调整 参数 ,对 不 同 参数 下 所 识别 出 的 科研 团队 
结果 进行 对 比 和 评估 。 由 于 合 著 网 络 规模 巨大 ,每 一 
次 参数 调整 重新 计算 都 需要 耗费 大 量 时 长 的 计算 资 
源 。 随 着 参数 的 调整 ,识别 出 的 科研 团队 逐渐 趋 于 稳 
定 。 聚 类 识别 采用 的 是 Louvain 算法 ,Resolution 参数 
影响 识别 出 聚 类 的 规模 ,Max Level 和 Max Iteration 两 


前 三 种 指标 从 结 点 属性 上 测度 科研 团队 的 实力 ,后 三 
种 指标 从 网 络 结构 上 测度 科研 团队 的 实力 。 发 文 量 、 
被 引 量 和 h 指数 的 具体 数值 根据 其 定义 ,采用 自 编 Py- 
thon 程序 计算 获得 ,加 权 点 度 中 心 度 、 中 介 中 心 度 和 接 
近 中 心 度 指 标的 具体 数值 ,利用 大 型 社会 网 络 分 析 工 
H Pajek 计算 得 出 。 对 于 每 个 维度 的 指标 , 取 排 名 前 
10 位 的 科研 团队 作为 该 维度 的 领军 团队 。 


3 研究 结果 与 分 析 


3.1 科研 团队 的 整体 情况 

基于 上 述 过 程 ,共识 别 出 人 工 智能 领域 科研 团队 
23 423 个 ,涉及 作者 186 997 名 ,团队 规模 的 分 布 情况 
见 图 4。 许 治 等 认为 ,小 规模 团队 (10 人 以 下 ) 在 合 
作 网 络 密度 与 合作 强度 上 均 优 于 大 规模 团队 (25 人 以 
上 ) 。 由 图 4 可 以 看 到 ,团队 规模 在 25 人 以 内 的 团队 
占 比 达到 89. 496 ,其 中 10 人 以 下 的 团队 规模 占 比 为 
7896 。 团 队 规模 分 布 较为 合理 。 


QERRE ChinaXiv 合 作 期 刊 
第 64 卷 第 20 期 2020 年 10 月 


Haley Kate 


Shelhamer, Evan 


song Wn on 
Berg Koh pais, Tayor MARO 


Kies Dor Baron. asman Ti 
"- Tier Stefan 了 


Karoyev, Sergey Geyer, omoere i 
(€ hanging 17 


boda oe! E 


io iDarrell, Trevor 


Cao ng 29 


Guadarrama, Serpo > 
e 
Berg kii patici, Taylor Donahye Jeff 1 


Saenko, Kate 


Tv Rohrbagi Marcus 
Par. Rover Jano, Alitón eh mU 
rye Sergey * : 
Qui ER MerdrckglizaAmne Aroren |e 
Venugopalan, Subhashin: vem Venugopalamy Subhashini 
sun. meone Senko, Kate < *» Nem Den 


Chu, ivan 2 
ten ovandrem Ge, 90823 — KuchenbeckegKathennel.2, oo Pm 
Ww "were E" A Riano. uprenzs "t 


Shelhamer. Evan 
Tejada, jorge Mamnez 


Beijbom, Oscar 1 
Ramana joseph M7 Hoffman, judy_2 


Palun, Manonar 1 


Girshick, Ross_1 
Bourdev,Lubomir 1 


[d 


Agr 


RoyCrowdhury, aruni 


Malik, Jitendra 
Un. Tung Ye 


[:] cL 
Kar, Abhishek Pont Tage, Jordi 
Arbelaez, Pablo 


Sassa on 
Um. joseph 2 2 


Barron, Jogachan T. 3 


— 


Agrewal Pune 


Barron. jonathan T. 3 
Dedi Fette Panra Merques. Ferran. 3 


Felsen Porra 
Port Tugec. Jordi 


Arbelaez, Pablo 


co — 
Malik, Jitendra 
Froghdakt Koeierna 2 


Girshidk Ross 1 Gu. Caunu 


2023 


Hariharan Bharath 


Bourdev,lubomir, 
Kar, Ahishek 
GionaruGeorpa 2 


图 3 经 调 参 团队 1 分裂 成 粒度 更 小 的 团队 2 和 团队 3 
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其 次 ,从 发 文 量 、 被 引 量 、bh 指数 .中 介 中 心 度 、 接 
近 中 心 度 以 及 加 权 中 心 度 六 个 维度 对 科研 团队 进行 测 
度 和 排行 ,将 前 234 名 ( 占 总 数 前 1% ) 科研 团队 定义 
为 领军 团队 ,每 个 指标 分 别 选取 排名 前 10 的 领军 团队 
作 展 示 和 分 析 , 共 涉及 47 个 团队 ,因为 其 中 有 10 个 团 
队 在 两 个 或 两 个 以 上 的 指标 排名 中 进入 前 10, 其 中 团 
队 #205 、#342 、#207 分别 在 三 个 指标 的 排名 中 进入 前 
10。 由 于 篇 幅 限制 , 仅 对 排名 前 三 的 科研 团队 作 简 明 
扼要 的 分 析 , 以 及 对 排名 第 一 的 领军 团队 结构 作 可 视 
化 展示 。 
3.2 ”基于 发 文 量 的 领军 团队 识别 

基于 发 文 量 的 领军 团队 见 表 1 ,可 以 发 现 发 文 量 
高 的 团队 ,成员 数 量 基 本 在 50 人 以 上 。 以 排名 第 一 编 
号 为 州 48 的 团队 为 例 ,该 团队 共有 52 位 有 紧密 合作 关 


的 著者 , 见 图 5 ,该 团队 的 领军 学 者 为 Pedryez Witold 


eugjie_ 2 ,研究 前 沿 主要 关注 边缘 检测 (edge detec- 
tD MELA Y (machine learning) 两 个 方面 。 编 号 为 
IOU 的 团队 共有 58 位 有 紧密 合作 关系 的 著者 ,该 团 
队 葡 领军 学 者 为 Castillo 0scar, 研 究 前 沿 主要 关注 基于 
机 沁 逻 辑 的 动态 参数 自 适应 问题 。 


E R1 基于 发 文 量 的 领军 团队 

L 团队 编号 团队 人 数 (位 ) 发文 量 (篇 ) ”人 均 发 文 量 (篇 ) 
e 3448 52 242.9 4.7 
2 31927 54 219.2 4.1 
3 31064 58 213.5 3:7 
4 3205 58 211.3 3.6 
5 #342 49 207.7 4.2 
6 #203 73 205.2 2.8 
7 #594 TI 198.9 2.6 
8 #1800 58 197.7 3.4 
9 #170 60 191.9 3.2 
10 #3661 52 190.9 3.7 


3.3 ”基于 被 引 量 的 领军 团队 识别 

基于 被 引 量 的 领军 团队 见 表 2, 可 以 发 现 被 引 量 
高 的 团队 ,成 员 数 量 相差 较 大 ,就 排名 前 十 的 团队 而 
言 ,成 员 最 少 的 兹 997 号 团队 仅 有 23 人 ,成 员 最 多 的 
霹 43 号 团队 却 有 高 达 80 人 。 以 排名 第 一 编号 为 扔 096 
的 团队 为 例 ,该 团队 共有 36 位 有 紧密 合作 关系 的 著 
者 , 见 图 6, 该 团队 以 Lin Chin-Jen 为 核心 。 该 领军 团 
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队 的 研究 前 治 主要 关注 与 人 工 智能 相关 的 算法 研究 ， 
主要 体现 在 分 类 算法 和 大 规模 线性 分 类 两 个 方面 。 排 
名 第 二 的 编号 为 钨 330 的 团队 以 学 者 Sun Jian_14 为 核 
心 ,研究 前 沿 主要 关注 基于 图 像 分 类 (image classifica- 
tion) 新 模型 或 新 方法 的 提出 。 排 名 第 三 的 编号 为 
#1959 的 团队 以 学 者 Ma, Yi_4 为 核心 ,研究 前 沿 主要 关 
注 计算 机 视觉 领域 ,探讨 的 问题 包括 在 严重 损坏 的 情 
况 下 识别 图 像 .在 图 像 中 找到 国定 物件 的 模型 等 ,并 试 
图 用 和 矩阵 的 方法 解决 这 些 问 题 。 
R2 基于 被 引 量 的 领军 团队 


排名 团队 编号 团队 人 数 ( 位 ) ”被 引 量 (次 ) ”人 均 被 引 量 (次 ) 
Į #2096 36 13 595.7 3TI.'T 
2 355330 36 9 695.1 269.3 
3 #1959 25 8 565.5 342.6 
4 #929 34 7 887.3 232.0 
5 #342 49 7 337.7] 149.7 
6 #5997 23 6 919.5 300. 8 
7 #399 43 6 813.1 158.4 
8 #843 80 6 T75. 1 84.7 
9 32435 60 6 664. 7 114.1 
10 #205 58 6 614.2 114.0 


3.4 基于 h 指数 的 领军 团队 识别 

基于 指数 的 领军 团队 见 表 3 ,可 以 发 现 h 指数 高 
的 团队 ,成 员 数 量 相对 较 多 ,最 大 的 #207 号 团队 有 98 
名 成 员 。 以 排名 第 一 编号 为 药 94 的 团队 为 例 , 该 团队 
共有 77 位 有 紧密 合作 关系 的 著者 ,如 图 7 所 示 , 该 团 
队 以 英国 布 鲁 内 尔 大 学 Wang Zidong 为 核心 ,研究 前 沿 
主要 在 同步 控制 (synchronization control)、 多 目标 优化 
(many-objective optimization ) 方面 ,并 且 对 神经 网 络 在 
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Ta. 被 引 量 视角 下 编号 可 096 领军 团队 合 著 网 络 


> 
nnt itl ( time-varying delays) 影响 下 的 指数 稳定 性 
( exponential stability) 进行 了 探讨 。 编 号 为 #205 的 团 
班 牙 格拉 纳 达 大 学 的 Herrera Francisco 为 核心 ， 

完 前 沿 主要 关注 群体 决策 (group decision) .基本 分 
3 base classifier ) 和 分 类 系统 (classification system ) 
Ormi. ASAH 的 团队 共有 80 位 有 紧密 合 
XA 著者 ,人 研究 前 沿 主 要 关注 基于 模糊 关联 规则 挖 
据 利 模糊 逻辑 结合 的 物流 、 医 疗 .仓储 等 方面 。 


2 X3 ”基于 h 指数 的 领军 团队 
n 
名 团队 编号 团队 人 数 (位 ) 团队 bh 指数 
[e] #594 TI 250 
S #05 58 193 
C #108 80 189 
Q, #795 85 178 
5 #342 49 177 
6 3207 98 174 
7 #223 51 173 
7 3203 7 173 
9 32711 60 171 
10 109 49 169 


3.5 基于 中 介 中 心 度 的 领军 团队 识别 

基于 中 介 中 心 度 的 领军 团队 见 表 4, 可 以 发 现 中 
介 中 心 度 高 的 团队 ,成 员 数 量 基本 在 40 人 以 下 。 以 排 
名 第 一 编号 为 #698 的 团队 为 例 , 该 团队 共有 44 位 有 紧 
密 合作 关系 的 著者 , 见 图 8, 该 团队 以 重庆 大 学 Zhang, 
wei_27 为 核心 ,研究 前 沿 主要 在 图 形 识别 的 相关 技术 ， 
近年 研究 重心 在 利用 线段 匹配 的 方法 提高 图 像 匹配 的 
正确 率 。 编 号 为 所 348 的 团队 以 学 者 Willmann ,T 为 核 
心 ,研究 前 沿 关注 与 人 工 智 能 相关 的 算法 研究 ,特别 是 
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与 矢量 量化 算法 (LVQ) 相关 的 研究 。 
表 4 基于 中 介 中 心 度 的 领军 团队 


排名 团队 编号 团队 人 数 ( 位 ) 团队 中 介 中 心 度 
1 #698 44 0.014 8 
2 #1348 16 0.010 3 
3 #3127 22 0. 007 8 
4 #904 26 0. 005 9 
5 #2982 33 0.005 8 
6 #499 39 0.005 1 
7 #1663 31 0.004 7 
8 #2242 38 0.004 5 
9 #196 37 0.004 1 
10 #63 58 0. 003 8 
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u, Y 
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智能 领域 科研 团队 识别 与 领军 团队 提取 [J]. 图 书 情报 工作 ,2020,64(20) :4 - 13. 


3.6 ”基于 接近 中 心 度 的 领军 团队 识别 

基于 接近 中 心 度 的 领军 团队 见 表 5, 可 以 发 现 接 
近 中 心 度 高 的 团队 人 数 普遍 较 多 ,成 员 数 量 基本 在 80 
人 以 上 。 以 排名 第 一 编号 为 #2352 的 团队 为 例 ,该 团 
队 共 有 100 位 有 紧密 合作 关系 的 著者 , 见 图 9, 该 团队 
以 埃及 开罗 大 学 Hassanien , Aboul Ella 为 核心 ,人 研究 前 
沿 主要 关注 支持 向 量 机 参数 优化 的 量子 粒子 群 优化 ， 
同时 还 关注 贝 叶 斯 优化 方法 (Bayesian Optimization Ap- 
proach) 多 目标 优化 算法 .求解 全 局 优化 问题 的 可 动 
阻尼 波 算法 等 。 编 号 为 杞 733 的 团队 以 美国 圣母 大 学 
D’ Mello, Sidney 为 核心 ,研究 前 沿 主要 针对 教育 领域 ， 
应 用 计算 机 视觉 技术 (computer vision technique ) 捕捉 
学 习 者 在 环境 下 的 面部 表情 并 分 析 其 状态 ,研究 的 目 
的 是 完善 他 们 的 智能 辅导 系统 (intelligent tutoring sys- 
terti) ,因此 该 团队 在 语音 识别 .情绪 分 析 方 面 颇 有 建 
树 = 编 号 为 #1063 的 团队 以 西班牙 马德里 理工 大 学 


C 
ajo 


, Javier 为 核心 ,研究 前 沿 主 要 关注 物 联网 系统 的 


自 通 应 容错 跟踪 控制 算法 ,提高 物 联网 系统 的 区 块 链 
管理 效率 的 非 线性 自 适应 闭环 控制 系统 、 物 联网 多 设 
从 各 市 式 连续 时 间 故 障 估计 控制 。 

N R5 基于 接近 中 心 度 的 领军 团队 


Ju, 团队 编号 团队 人 数 ( 位 ) 团队 接近 中 心 度 
CN 30352 100 4.723 
m" mw 
> 10733 83 4.395 
Bum 
> #1063 84 4.082 
a 32181 94 4.036 
c 4795 85 4.001 
B uem 
c 3207 98 3.974 
Q #948 84 3.962 
8 #5899 79 3.962 
9 #2177 92 3.909 
10 #3481 83 3.895 


3.7 ”基于 加 权 点 度 中心 度 的 领军 团队 识别 

基于 加 权 点 度 中 心 度 的 领军 团队 见 表 6, 可 以 发 
现 基 于 加 权 度 的 团队 排名 ,在 团队 人 数 上 分 布 较为 均 
匀 。 以 排名 第 一 编号 为 #3127 的 团队 为 例 ,该 团队 共 
有 22 位 有 紧密 合作 关系 的 著者 , 见 图 10, 该 团队 以 法 
国 巴 黎 第 六 大 学 学 者 Perny Patrice 为 核心 ,研究 前 沿 
主要 关注 包括 公共 设施 的 位 置 布置 问题 .电力 市 场 贸 
易 谈 判 问题 .多边 谈判 的 策略 问题 , 碳 排 放量 评估 与 交 
易 问 题 .多 准则 决策 问题 ,核心 在 于 决策 理论 在 人 工 智 
能 中 的 应 用 。 编 号 为 可 056 的 团队 以 Xu, Yang. 7 为 核 
心 ,研究 前 沿 主要 是 格 值 逻辑 (lattice-valued logic) 、 格 
蕴含 代数 (lattice implication algebra) ,SAT 问题 以 及 模 
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HZ4 (fuzzy logic) 。 编 号 为 要 242 的 团队 共有 38 位 
有 紧密 合作 关系 的 著者 ,该 团队 以 学 者 Ramirez, J. 和 
Gorriz ,J. 为 核心 ,研究 前 沿 主要 的 是 模式 识别 (Pattern 
recognition ) 等 人 工 智 能 (Artificial intelligence ) 方法 在 
生物 (Biology) 和 医疗 (Medicine ) 领域 的 应 用 研究 , 近 
年 来 特别 针对 阿尔 茨 海 默 证 展开 研究 。 

表 6， 基 于 加 权 点 度 中 中 心 度 的 领军 团队 


排名 团队 编号 团队 人 数 (位 ) 团队 加 权 度 
1 33127 22 423.7 
2 32056 58 413.0 
3 32242 38 399.7 
4 32312 37 393.9 
5 32373 50 393.2 
6 #196 37 374.2 
7 3207 98 366.6 
8 #48 36 355.8 
9 3276 61 345.7 
10 32733 83 341.6 


3.8 6 种 维度 下 领军 团队 的 比较 分 析 

对 上 述 6 个 维度 出 发 所 识别 到 的 领军 团队 进行 比 
较 , 结 果 见 表 7。 表 7 中 ,团队 #05 RIETEA342 ERX 
量 \ 被 引 量 和 b 指数 3 个 研究 维度 都 排 到 了 前 10 位， 
WLEA 207 同时 在 b 指数 ,接近 中 心 度 和 加 权 点 度 中 心 
度 都 排 到 了 前 10 位 。 此 外 ,团队 要 96 团队 杞 03 .团队 
32242 团队 #733 , W EA #3127 V H1 A 36594. 和 团队 #795 
均 在 两 个 维度 中 排 到 前 10 位 。 这 个 结果 说 明 ,不 同 维 
度 的 领军 团队 排名 确实 揭示 了 不 同 内 涵 的 领先 优势 ， 
与 此 同时 ,存在 一 些 领军 团队 在 不 同 维度 均 体 现 出 了 
领先 优势 ,其 中 ,在 h 指数 方面 表现 优秀 的 领军 团队 更 
可 能 在 其 他 维度 也 取得 优势 。 
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T- 
PP 表 7 


6 个 维度 下 领军 团队 的 比较 分 析 


N 排名 发 文 量 被 引 量 h 指数 中 介 中 心 度 接近 中 心 度 加 权 点 度 中 心 度 
cC: #448 #2096 #594 #698 #2352 #3127 
(ew #1927 #5330 #205 #1348 30733 #2056 
e 3 #1064 #1959 #108 #3127 #1063 #2242 
er. #205 #929 #195 #904 #2181 #2312 
e 5 #342 #342 #342 #2982 #795 10373 
el 6 #203 #5997 #207 #499 #207 #196 
[ew #594 #399 #223 #1663 #948 #207 
CN 5 #1800 #843 #203 #2242 #5899 #48 

~ 9 #170 #2435 #2711 #196 #2177 #276 
x 10 #3661 #205 E #63 #8481 :0733 

取 已 知 团队 作为 参照 点 ,判断 合适 的 团队 划分 标准 ,这 


| A 
D a 
di 
BH 
SP 


h 


OFX 2009 -2018 年 Web of Science 人 工 智 能 学 
科 所 有 科技 论文 的 数据 为 来 源 ,构建 基于 数据 分 析 的 
从 数据 清洗 、 网 络 构建 .科研 团队 识别 与 领军 团队 提取 
的 完整 流程 。 

通过 研究 ,本 文 主要 有 如 下 3 个 主要 贡献 : 

(1) 基 于 迭代 式 积累 设计 科技 论文 数据 清洗 的 规 
则 。 形 成 一 套 人 工 智 能 研究 机 构 别 名 对 应 表 , 提出 基 
于 机 构 名 和 合 著 者 对 作者 进行 大 规模 消 歧 的 方法 ,并 
在 人 工 智 能 科技 论文 数据 集 上 得 到 实证 检验 。 这 种 名 
称 消 政 的 思路 和 方法 较为 简便 可 行 ,实际 消 牙 效 果 较 
好 ,可 以 用 于 其 他 学 科 领 域 的 机 构 或 作者 名 称 消 歧 。 

(2) 构 建 基于 合 著 网 络 关系 识别 人 工 智能 科研 团 
队 的 流程 体系 。 采 用 分 数 计数 法 构建 全 局 合 著 网 络 ， 
通过 消除 边缘 结 点 进行 合 著 网 络 提取 ,利用 已 知 团队 
作 参 考 进行 动态 参数 调整 ,识别 出 了 粒度 合适 的 科研 
团队 。 在 实际 调 参 过 程 中 ,由 于 没有 客观 标准 ,需要 选 


同样 适用 于 其 他 学 科 领 域 科研 团队 的 划分 过 程 。 
(3) 从 6 个 维度 提取 人 工 智能 研究 的 领军 团队 。 
分 别 从 发 文 量 .被 引 量 h 指数 .中 介 中 心 度 .接近 中 心 
BE .加权 点 度 中 心 度 识 别 了 领军 团队 ,并 举例 分 析 了 领 
军团 队 的 构成 及 其 研究 主题 。 在 本 研究 中 ,领军 团队 
用 于 描述 科研 成 绩 突出 的 科研 团队 ,而 科研 成 绩 突出 
可 以 体现 在 不 同 维度 ,采用 的 六 个 维度 指标 在 科学 评 
价 中 认可 度 较 高 ,可 用 于 其 他 学 科 领 域 的 科研 团队 的 
分 析 。 但 是 ,除了 这 些 维度 的 指标 之 外 ,还 有 其 他 维度 
的 指标 ,可 以 在 未 来 进一步 探索 。 
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Abstract: | Purpose/significance | This paper identifies the research team in the artificial intelligence field , 


extracts the leading research team from multi-dimensional indicators, aiming to enrich the process and method of 


Xiv 


identification of the research team, and provide the basis for analyzing the context, frontier and theme of the field of 
Brtificial intelligence from the perspective of the research team. | Method/process | This paper was based on the 
-publication data of the Web of Science category Computer Science , Artificial Intelligence from 2009 to 2018, and did 
Qa cleaning via programming and manual check. Global co-author network is constructed based on the fractional 
counting method , and the Louvain algorithm was used to dynamically tune and identify the research teams. Moreover, 
the leading research team was extracted based on different indicators with parameter adjustment. | Result/conclu- 
sion | From practical view, the study has constructed a set of rules for cleaning publication data of artificial intelli- 
gence field. The process of identifying artificial intelligence research teams based on co-authorship is constructed. 
The study proposes the method of tuning the parameter by eliminating edge nodes in the collaboration network and fur- 
ther taking the known research teams as baseline. The worldwide research teams of artificial intelligence field are sys- 
tematically and accurately identified. The leading research teams are further extracted based on indicators of six di- 
mensions, i. e. number of publications „number of citations „h index weighted degree centrality ,betweenness centrali- 
ty ,closeness centrality. Exemplary analysis is conducted on leading research teams of each dimension by combining 
the publication data and web information survey. 


Keywords; artificial intelligence | co-authorship network research team leading research team data analysis 
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